Warning: mkdir(): No space left on device in /var/www/tg-me/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/data_analysis_ml/-3605-3606-3607-3605-): Failed to open stream: No such file or directory in /var/www/tg-me/post.php on line 50
Анализ данных (Data analysis) | Telegram Webview: data_analysis_ml/3606 -
Telegram Group & Telegram Channel
Forwarded from Machinelearning
🌟 Hunyuan Video Avatar: видео-аватары с контролем эмоций.

Вслед за релизом Hunyuan Portrait, Tencent выпустила Hunyuan Video Avatar - систему на базе MM-DiT для генерации динамичных видео из изображения с одним или несколькими персонажами, синхронизированных с аудио.

Объединить такие возможности было непростой задачей, это стало возможным благодаря использованию ключевых для Hunyuan Video Avatar методов:

🟢Сharacter image injection module - отвечает за то, чтобы "оживший" персонаж на видео оставался очень похожим на того, кто был на исходной фотографии. Он следит, чтобы черты лица, прическа, общие контуры не искажались и персонаж был узнаваем на протяжении всего ролика, а его движения были естественными.

🟢Audio Emotion Module (AEM) - контролирует соответствие эмоций на лице голосу из аудиоисточника, чтобы выражение лица персонажа на видео точно совпадало с эмоциональной окраской звуковой дорожки.

🟢Face-Aware Audio Adapter (FAA) - помогает "понять", к какому именно лицу в данный момент относится звучащая речь. Он как бы надевает "умную маску" на лицо нужного персонажа, чтобы только его мимика оживала в ответ на конкретную аудиодорожку.

По сравнительных тестах с Sonic, EchoMimic, EchoMimicV2 и Hallo-3 на датасетах для портретной анимации (HDTF, CelebV-HQ и свой приватный сет) Hunyuan Video Avatar показал лучшие результаты: 3,99 в метриках качества видео (IQA), 2,54 по эстетике (ASE), 5,30 в синхронизации аудио и видео (Sync-C), 38.01 в точности воспроизведения видео (FID) и 358.71 по искажениям (FVD).

При тестировании полнокадровой анимации на собственном датасете HunyuanVideo-Avatar показал лучшие результаты по IQA (4.66), ASE (3.03) и Sync-C (5.56) в сравнении с Hallo3, FantasyTalking и OmniHuman-1.

⚠️ Модель прожорливая: минимум 24 ГБ VRAM для 704x768, а для плавного 4K рекомендуют GPU на 96 ГБ.

Зато входные изображения берет любые: фотореалистичные портреты, 3D-модели, аниме-персонажи — хоть лису в костюме. Разрешение тоже гибкое: от крупных планов до полноростовых.

▶️В репозитории проекта на Github есть несколько скриптов в помощь для запуска: для low VRAM, инференса на одном GPU , для multi-GPU и запуска с WebUI на базе Gradio. Адаптация к среде ComfyUI - в планах.


🟡Страница проекта
🟡Модели
🟡Arxiv
🟡Demo (китайский язык)
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #HunyuanAvatar
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/data_analysis_ml/3606
Create:
Last Update:

🌟 Hunyuan Video Avatar: видео-аватары с контролем эмоций.

Вслед за релизом Hunyuan Portrait, Tencent выпустила Hunyuan Video Avatar - систему на базе MM-DiT для генерации динамичных видео из изображения с одним или несколькими персонажами, синхронизированных с аудио.

Объединить такие возможности было непростой задачей, это стало возможным благодаря использованию ключевых для Hunyuan Video Avatar методов:

🟢Сharacter image injection module - отвечает за то, чтобы "оживший" персонаж на видео оставался очень похожим на того, кто был на исходной фотографии. Он следит, чтобы черты лица, прическа, общие контуры не искажались и персонаж был узнаваем на протяжении всего ролика, а его движения были естественными.

🟢Audio Emotion Module (AEM) - контролирует соответствие эмоций на лице голосу из аудиоисточника, чтобы выражение лица персонажа на видео точно совпадало с эмоциональной окраской звуковой дорожки.

🟢Face-Aware Audio Adapter (FAA) - помогает "понять", к какому именно лицу в данный момент относится звучащая речь. Он как бы надевает "умную маску" на лицо нужного персонажа, чтобы только его мимика оживала в ответ на конкретную аудиодорожку.

По сравнительных тестах с Sonic, EchoMimic, EchoMimicV2 и Hallo-3 на датасетах для портретной анимации (HDTF, CelebV-HQ и свой приватный сет) Hunyuan Video Avatar показал лучшие результаты: 3,99 в метриках качества видео (IQA), 2,54 по эстетике (ASE), 5,30 в синхронизации аудио и видео (Sync-C), 38.01 в точности воспроизведения видео (FID) и 358.71 по искажениям (FVD).

При тестировании полнокадровой анимации на собственном датасете HunyuanVideo-Avatar показал лучшие результаты по IQA (4.66), ASE (3.03) и Sync-C (5.56) в сравнении с Hallo3, FantasyTalking и OmniHuman-1.

⚠️ Модель прожорливая: минимум 24 ГБ VRAM для 704x768, а для плавного 4K рекомендуют GPU на 96 ГБ.

Зато входные изображения берет любые: фотореалистичные портреты, 3D-модели, аниме-персонажи — хоть лису в костюме. Разрешение тоже гибкое: от крупных планов до полноростовых.

▶️В репозитории проекта на Github есть несколько скриптов в помощь для запуска: для low VRAM, инференса на одном GPU , для multi-GPU и запуска с WebUI на базе Gradio. Адаптация к среде ComfyUI - в планах.


🟡Страница проекта
🟡Модели
🟡Arxiv
🟡Demo (китайский язык)
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #HunyuanAvatar

BY Анализ данных (Data analysis)





Share with your friend now:
tg-me.com/data_analysis_ml/3606

View MORE
Open in Telegram


Анализ данных Data analysis Telegram | DID YOU KNOW?

Date: |

Telegram Be The Next Best SPAC

I have no inside knowledge of a potential stock listing of the popular anti-Whatsapp messaging app, Telegram. But I know this much, judging by most people I talk to, especially crypto investors, if Telegram ever went public, people would gobble it up. I know I would. I’m waiting for it. So is Sergei Sergienko, who claims he owns $800,000 of Telegram’s pre-initial coin offering (ICO) tokens. “If Telegram does a SPAC IPO, there would be demand for this issue. It would probably outstrip the interest we saw during the ICO. Why? Because as of right now Telegram looks like a liberal application that can accept anyone - right after WhatsApp and others have turn on the censorship,” he says.

Telegram and Signal Havens for Right-Wing Extremists

Since the violent storming of Capitol Hill and subsequent ban of former U.S. President Donald Trump from Facebook and Twitter, the removal of Parler from Amazon’s servers, and the de-platforming of incendiary right-wing content, messaging services Telegram and Signal have seen a deluge of new users. In January alone, Telegram reported 90 million new accounts. Its founder, Pavel Durov, described this as “the largest digital migration in human history.” Signal reportedly doubled its user base to 40 million people and became the most downloaded app in 70 countries. The two services rely on encryption to protect the privacy of user communication, which has made them popular with protesters seeking to conceal their identities against repressive governments in places like Belarus, Hong Kong, and Iran. But the same encryption technology has also made them a favored communication tool for criminals and terrorist groups, including al Qaeda and the Islamic State.

Анализ данных Data analysis from sg


Telegram Анализ данных (Data analysis)
FROM USA